**تیار کردہ:** عبدُ الواجد (ABDUL WAJID)
سوال ۱: آپ نے ایک ڈیٹا سیٹ منتخب کیا ہے۔ لیب کا پہلا قدم کیا ہونا چاہیے تاکہ اس بات کو یقینی بنایا جا سکے کہ آپ کا فیصلہ شجر (Decision Tree) درست نتائج دے؟
سوال ۲: آپ کے ڈیٹا سیٹ میں 'شہر' جیسی کیٹیگوریکل (Categorical) خصوصیات ہیں۔ انہیں فیصلہ شجر میں استعمال کرنے کے لیے آپ کو کیا کرنا چاہیے؟
سوال ۳: آپ نے مشاہدہ کیا ہے کہ 20% ڈیٹا گمشدہ (Missing) ہے۔ آپ کو گمشدہ ڈیٹا کو کس طریقے سے درست کرنا چاہیے تاکہ ماڈل کی کارکردگی بہتر ہو؟
سوال ۴: اپنے ماڈل کی عمومی کارکردگی کی جانچ کے لیے، آپ ڈیٹا کو ٹریننگ اور ٹیسٹنگ سیٹ میں تقسیم کرتے ہیں۔ بہترین مشق کے طور پر، آپ کو عام طور پر کون سا تناسب استعمال کرنا چاہیے؟
سوال ۵: فیصلہ شجر میں، نوڈز (Nodes) کو تقسیم کرنے کے لیے سب سے عام پیمانہ کیا ہے، جو ہمیں بتاتا ہے کہ ایک تقسیم کتنی 'خالص' ہے؟
سوال ۶: اگر آپ کا مقصد وہ خصوصیت ڈھونڈنا ہے جو ماڈل کو سب سے زیادہ معلومات فراہم کرے، تو آپ اینٹروپی کے ساتھ کون سی پیمائش کی قدر کو بڑھانے کی کوشش کریں گے؟
سوال ۷: آپ کا شجر تیزی سے بڑھ رہا ہے اور ہر آخری پتا (Leaf) پر صرف ایک یا دو ڈیٹا پوائنٹس ہیں۔ اس مسئلے کو کیا کہا جاتا ہے؟
سوال ۸: اوور فٹنگ سے بچنے کے لیے، ایک اہم ہائپر پیرامیٹر جسے آپ کنٹرول کر سکتے ہیں وہ کیا ہے؟
سوال ۹: پوسٹ-پروننگ (Post-Pruning) کا بنیادی مقصد کیا ہے؟
سوال ۱۰: پری-پروننگ (Pre-Pruning) کس وقت عمل میں آتی ہے؟
سوال ۱۱: آپ کے تجربے میں، آپ کو پتہ چلتا ہے کہ فیصلہ شجر میں چھوٹی تبدیلیاں بھی نتائج کو بہت زیادہ غیر مستحکم (Unstable) کر سکتی ہیں۔ اس مسئلے کو حل کرنے کا بہترین طریقہ کیا ہے؟
سوال ۱۲: ماڈل کے بہترین ہائپر پیرامیٹرز (جیسے Max Depth) کو ڈھونڈنے کے لیے لیب میں کون سی تکنیک سب سے زیادہ مؤثر ہے؟
سوال ۱۳: فیصلہ شجر کا ایک بڑا فائدہ کیا ہے جو اسے بلیک باکس ماڈلز (جیسے نیورل نیٹ ورکس) سے ممتاز کرتا ہے؟
سوال ۱۴: فیچر امپورٹینس (Feature Importance) کی قدریں دیکھ کر، آپ کو پتہ چلتا ہے کہ ایک خصوصیت کا اسکور بہت زیادہ ہے۔ اس کا کیا مطلب ہے؟
سوال ۱۵: اگر آپ کا ٹریننگ ڈیٹا تاریخی طور پر تعصب (Biased) ہو (مثلاً صرف ایک خاص آبادی کے لیے موزوں ہو)، تو آپ کا فیصلہ شجر کیا کرے گا؟
سوال ۱۶: جب ایک فیصلہ شجر ریگریشن کا کام کرتا ہے (کلاسیفیکیشن کے بجائے)، تو تقسیم کے لیے استعمال ہونے والے عام معیار کیا ہیں؟
سوال ۱۷: اگر فیصلہ شجر کی کارکردگی غیر خطی (Non-linear) حدود والے مسائل پر بہتر ہو، تو کیا وجہ ہے؟
سوال ۱۸: ID3 الگورتھم کی سب سے بڑی خامی کیا ہے جو CART اور C4.5 میں درست کی گئی ہے؟
سوال ۱۹: جب آپ ایک بہت بڑا ڈیٹا سیٹ استعمال کر رہے ہوں (مثلاً 1 ملین ریکارڈز)، تو ایک فیصلہ شجر کی تربیت میں کون سا مسئلہ پیش آ سکتا ہے؟
سوال ۲۰: آپ نے کامیابی سے ایک فیصلہ شجر ماڈل کو تربیت دی، اس کی جانچ کی، اور اس میں کانٹ چھانٹ بھی کی۔ اب حتمی نتیجہ کیا ہونا چاہیے؟